阿里Tree-GRPO:AI实现人类式决策思考
这项由阿里巴巴集团AMAP团队的季宇翔、马子瑜等研究人员以及厦门大学、南方科技大学学者共同完成的研究发表于2025年1月,论文编号为arXiv:2509.21240v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
这项由阿里巴巴集团AMAP团队的季宇翔、马子瑜等研究人员以及厦门大学、南方科技大学学者共同完成的研究发表于2025年1月,论文编号为arXiv:2509.21240v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
本文第一作者戴语琴,清华大学博士生。该工作为戴语琴在蚂蚁大安全实习期间完成,该工作属于蚂蚁集团大安全 Venus 系列工作,致力于打造搜索智能体 / UI 智能体。本文通讯作者为该校副教授吕帅,研究方向包括大语言模型、多模态生成、AI4Design。共同通讯作